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У даній роботі розглядається проблема взаємодії «людина-комп'ютер» у форматі дослідження 
засобів реалізації природно-мовної комунікації у технічних системах, зокрема проблеми розуміння 
природної мови. Пропонується підхід до вирішення цієї проблеми шляхом моделювання когнітивного 
аспекту мовленнєвої діяльності людини на основі природно-мовної бази знань. Оцінка моделі 
проводиться шляхом експериментальної перевірки наявності окремих ключових проявів, пов'язаних з 
розумінням тексту, в роботі бази знань. 
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Тріз рарег Феаїз міф Пиплап-сопариїег іпіегасійоп аг Ше Ісуе! ої ехатіпайоп ої пеїродз ої 
ітріетепаноп ої паїига! Іапелаєе сопатипісайоп їп їесрпіса! зузіете, їп рагіїсиіаг ої паца! Іапоцаєе 
ипдегвіапдїпє. Ап арргоасі о 80Іміпя із ргобіега і5 ргоро5ед місії 15 сепіегед агоцпа плодейпо Ше 
собпійуе а5ресі ої питап 5реесії асіймігу оп ре Базі8 ої Бе пагига! Іапемаєе Кпом/едєе Базе. ТБе тоаєі 
еуаїшайоп 15 сопдацсіва бу ехесийпє ап ехрегітепіа! (е5і ої оссштепсе ої сегіаїп ез5епйаї паапіїезкайопе, 
ПпКедй іо Фе ппдегаіапаіпя ої пашта! Іапепаєє Іехі, їп Ше орегайоп ої кпом/едєе Базе. 

Кеуууогаз: патига! Іапепаєє, пагига! Іаприаєе ппдегвтапате, кпом/едде Базе, дпапішт ої Кпоміеціє. 


Вступ 

Взаємодія людини з комп'ютером (НСІ, Нитап-Сотриїег Іпіегасіїоп) є однією з 
ключових проблем у галузі штучного інтелекту. Основною задачею, в рамках цієї 
проблеми, є трансформація сигналів, що надходять від людини-оператора, у зрозумілу 
комп'ютеру форму, та обернена трансформація результатів виконання запиту. 

Хоча сучасні інтерфейси їі способи взаємодії з комп'ютером активно 
розвиваються, основним інструментом для опису та вирішення складних задач є 
природна мова. Природна мова не завжди безпосередньо використовується як засіб 
комунікації, але у багатьох випадках інші типи інтерфейсів так чи інакше залежать 
саме від мови. Підписи на графічних іконках, мови програмування як спрощена 
демонстрація природної мови, символьні мови і т.д. часто зводяться до текстового 
опису відповідних функцій, операцій тощо. Фактично, уся проблема створення 
природно-мовного інтерфейсу тісно пов'язана з проблемою моделювання мовлен- 
нєвої діяльності людини взагалі - адже незалежно від вигляду та обсягу вхідного 
тексту, алгоритми його обробки залишаються ті ж самі. 

Проблема розуміння комп'ютером природної мови на сьогоднішній день є 
актуальною. Обчислювальні потужності комп'ютерів протягом останніх десятиліть 
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зросли до фантастичних величин, але природно-мовні інтерфейси досі знаходяться 
на досить низькому рівні розвитку. При цьому, хоча люди добре володіють мовою з 
раннього віку, моделі мовленнєвої діяльності досі створено не було. 

Постановка проблеми 

Для вирішення проблеми розуміння тексту необхідно в загальному вигляді 
розв'язати дві основні задачі: отримання природно-мовного тексту у придатному для 
обробки комп'ютером вигляді та виділення власне знання, або смислового 
навантаження, з тексту. 

Першу задачу в рамках даної статті не розглядаємо, оскільки вже існує багато 
сторонніх програмних засобів (наприклад, З5іапіогй Раг5ег |31), здатних досить 
ефективно перетворювати аудіо-записи або графічні матеріалу у синтаксично 
розмічений фрагмент тексту. Крім того, введення тексту з клавіатури, хоча й не є 
оптимальним способом з точки зору швидкості роботи, має досить високі показнИКИ точності. 

Натомість, задача, яка розглядається у статті - це власне задача виділення 
знань, тобто отримання з тексту знань у такому вигляді, який дозволяє ефективно 
обробляти їх математичними та логічними засобами. 

Аналіз останніх досліджень і публікацій 

Існує декілька основних підходів до виділення та зберігання знань. 

Першим, найпростішим з точки зору реалізації, підходом до збереження знань 
є різноманітні електронні енциклопедії та довідники. Оскільки окремі елементи 
знань (статті) у таких системах пов'язані між собою мережею взаємних посилань, 
можемо виділити їх як окремий клас саме систем зберігання знань. Втім, можливість 
використання їх для безпосереднього виділення знань є сумнівною: найменший 
елемент - стаття - часто містить багато пов'язаних між собою фактів і тверджень, а 
наповнення таких систем знаннями та їх обробка в автоматичному режимі взагалі 
неможливі. Найвідоміші сучасні представники систем цього класу - У/оійтат АІррба 
Г6) та Сообіе Кпом/едсе Старі |41. 

Більш формальним варіантом енциклопедій є фреймові системи збереження 
знань. Виділення знань у таких системах зводиться до заповнення відповідних полів 
фрейму необхідними даними. Хоча структура окремого фрейму може добре 
підходити для вирішення певної конкретної задачі, або навіть бути динамічною та 
мати деяку внутрішню логіку, вона все ж є досить строго описаною - а отже, не 
може одночасно охопити усі рівні абстракції. Як правило, ця структура або дуже 
складна сама по собі, що розширює сферу її використання, але робить логіку 
обробки знань дуже складною; або строго описана та жорстка, що призводить до 
втрати великої кількості знань при її наповненні та сильно обмежує можливі галузі її 
використання. Прикладом такої системи є семантичний У/ер за версією УУЗС (5). 

Іншим популярним підходом є протилежний варіант - використання 
граматичної структури тексту, отриманої за допомогою синтаксичних аналізаторів, 
як семантичної його структури. Хоча використання існуючих аналізаторів позбавляє 
необхідності розробляти окремий програмний продукт для реалізації семантичного 
аналізу, проблеми синтаксичного аналізатора так само переходять на рівень 
семантики. Зокрема, усі результати роботи стохастичних алгоритмів синтаксичного 
аналізатора прямо переходять у БЗ, що зумовлює виникнення неточностей ще до 
початку власне процесу аналізу. Крім того, оскільки об'єкти «словосполучення» та 
«речення» досі не визначені, структура бази знань залишається в такому випадку 
незрозумілою. Прикладом такої системи є |1). 
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Проблему структури бази знань вирішує підхід використання семантичних 
мереж, окремим елементом знань у яких є слово. Ці системи добре підходять для 
вирішення цілої низки задач, але, на жаль, розуміння природної мови до них не 
входить: оскільки усі відношення між словами виносяться у «зв'язки» в рамках бази 
знань, обробка цих зв'язків стає окремою проблемою, особливо при необхідності 
виділити лише частину релевантних вузлів. 

Виділимо спільні недоліки цих систем - основні проблеми виділення знань з тексту: 
- не визначено окремий елемент знань: або це нестабільна структура (синтаксичні 
аналізатори), або негнучка (фреймові системи), або занадто велика (енциклопедії), 
або занадто мала (семантичні мережі); 

- система або універсальна, або точна: враховуються лише найпопулярніші значення 
даного концепту або використовуються лише ті значення, які є несуперечливими у 
даній вузькій предметній області; 

- у більшості сучасних автоматизованих систем виділення знань використовуються 
стохастичні підходи, що призводить до виникнення певної похибки ще до початку 
власне аналізу значення тексту. 

Мета дослідження 

Метою даної роботи є моделювання процесу розуміння природно-мовного 
тексту на основі природно-мовної бази знань, що характеризується використанням 
контексту та накопичених раніше знань при обробці нових вхідних текстів. 

Основна частина 

Об'єктом даного дослідження є природно-мовна база знань, розроблена 
автором на засадах інтеграційного підходу до моделювання мовленнєвої діяльності 
людини |2|. Головною особливістю цього підходу є визначення базової семантико- 
синтаксичної структури довільного природно-мовного повідомлення, що відповідає 
кванту знань - ситуації сенсорного рівня. 

Використання кванту знань як базової семантико-синтаксичної структури дозволяє 
представити будь-який текст у вигляді сукупності таких структур та логічних відношень 
між ними, що, в свою чергу, значно полегшує його автоматичну обробку. 

Предметом дослідження роботи є особливості описаної вище бази знань, 
зокрема можливість її використання для моделювання когнітивної (отримання нової 
інформації з власного досвіду) діяльності людини. 

Основними структурними елементами бази знань є: 

- структури 5, що є формалізованим представленням базових  семантико- 
синтаксичних структур - квантів знань. Кожна структура відповідає окремому 
кванту сенсорних знань або його уявному аналогу у випадку абстрактних ситуацій; 

- відношення К, що поєднують окремі кванти знань. Відношення не мають 
реального сенсорного прототипу 1 є суто логічними структурами; 

- маркери М, що пов'язують кванти знань та відповідні їм фрагменти тексту. Кожний 
маркер містить інформацію про зв'язок між словами та їх ролями у структурі, зв'язок між 
структурою та вхідним текстом, метадані щодо вхідного тексту тощо. 

Кожна структура 5 складається з Обі (об'єкта), Моу (його дії) та їх 
атрибутивного оточення - Айт(ОРі), Аш(Моу), Апг(Апт(?)). Кожне відношення 
поєднує 2 окремі структури. Таким чином, загальна структура довільного фрагменту 
знань - від одного кванту знань до усього обсягу бази знань - може бути описана 
сукупністю ситуацій 5 та відношень К. 
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Наповнення бази знань 

Поставлена мета потребує демонстрації особливостей роботи природно-мовної 
бази знань. Оскільки найбільш логічним способом їх перевірки є перевірка 
виконання певних запитів, надалі концентруємо увагу саме на них. Процес 
наповнення БЗ відповідними знаннями описуємо лише коротко. 

Заради чистоти експерименту використовуємо примітивний лінгвістичний 
процесор та враховуємо лише один тип відношення - симетричне відношення 
«тире» або «є»: «51 - 52» ; «9; є 52». Як вхідні тексти використовуємо такі, що не 
потребують попереднього знання у галузі: підручник «Природознавство» для 4 класу 
за авторством Т.Г. Гільберта та підручник «Астрономія» для 11 класу за авторством 
М.П. Пришляка, тема «Космос». 

Об'єктом дослідження обираємо основний концепт «планета» і його похідні. 
Концепт у даному випадку відображає фрагмент знань, над яким виконується 
експеримент: він може містити від одного слова до повної структури 5, або навіть 
декілька структур, пов'язаних відношеннями. У даному випадку використання 
терміну «слово» обмежує варіативність лише однією словоформою, терміну 
«лексема» - концептами, які можна описати лише одним словом. 

Підручник «Природознавство» містить загальні відомості про планети: «Земля -- 
наша планета», «Нептун - планета», «перша планета», «найхолодніша планета», 
тощо. Підручник «Астрономія» містить знання більш наукового спрямування: «планета 
- космічне тіло», «планета обертається», «планети рухаються» 1 так далі. Отже, 
після початкового наповнення отримуємо БЗ, що містить знання у вигляді окремих 
5, кожну з яких можемо розглядати як окрему сутність, в основі якої завжди є 
концепт - ОР). У маркерах, що відповідають цим 5, зберігається інформація про 
джерело тексту, в даному випадку - назва підручника. Звісно, це може бути будь-яка 
інформація - і отримана автоматично з метаданих, і додана іншими методами тощо. 

Семантика концепту 

У першу чергу перевіряємо можливість автоматичного виділення концепту та 
формування його семантики. Оскільки текстове представлення концепту відоме, задача 
його виділення з власне тексту повністю виконується лінгвістичним процесором. Отже, 
оскільки БЗ не має впливу на результат цієї дії, його не перевіряємо. 

Зазначимо, що концепт може описуватись і цілою структурою з кількох 
квантів та відношень між ними - але в такому випадку цей концепт можна розбити 
на складові кванти знань, що є окремими концептами, пов'язаними логічними 
зв'язками К. Отже, перевіряти роботу БЗ у такому випадку нема необхідності. 
Розглянемо формування семантики концепту на прикладі згаданого вище концепту «планета». 

Виділення знань по запиту «планета» дозволяє визначити його атрибутивне 
оточення («найгарячіша», «найхолодніша», «перша», ...), можливі дії («рухається», 
«обертається», ...) та зовнішні відношення («Земля -- планета», «Марс - планета», 
...). Таким чином, БЗ дозволяє отримати повне семантичне оточення слова (з або без 
урахування маркерів). На цьому етапі відмінність від класичних систем, зокрема 
семантичних мереж, майже відсутня: побудова мережі сусідів даного слова є досить 
простою задачею. 

Розширимо концепт від одного слова «планета» до словосполучення (Орі -- 
Апг) «перша планета». Для отримання семантичного оточення для «перша планета» 
достатньо вибрати з БЗ усі випадки, коли ці слова пов'язані у кванті знань як ОРі та 
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Апг відповідно. Результат пошуку за цим запитом містить набагато менше зв'язків, 
відношень, а отже - і результатів. 

Одразу відзначимо першу особливість природно-мовної бази знань. У рамках 
окремого кванту знань ролі і зв'язки між ними визначаються взагалі досить просто; 
при введенні зовнішніх відношень складність задачі не зростає кардинально; і, як 
було показано вище, при збільшенні обсягу тексту структура знань залишається 
такою ж самою. Це дозволяє зробити перший важливий висновок: 

В.І: виділення окремих квантів знань та відношень між ними відбувається 
автоматично; 

Крім того, архітектура бази знань передбачає зберігання будь-якого формату 
природно-мовного тексту, а отже: 

В.2.: точність та повнота обробки тексту залежать лише від лінгвістичного 
процесора та модуля відношень. 

Моделювання розуміння тексту 

Досить часто концепти можуть бути представлені рівноправними синонімами -- 
словами або фрагментами тексту. Так, з фрагменту тексту «перша, найменша 
планета» отримуємо знання про те, що «перша планета» також є «найменшою» - 
але це не розповсюджується на інші планети. Звісно, іноді такі синоніми будуть 
нерівноправними, або ж неоднозначними - але вирішення цих питань можемо 
покласти на вже безпосередньо системи обробки знань, оскільки логіка відношень є 
окремою темою для дослідження. У будь-якому випадку, виникає проблема згортки 
знань - адже різні фрагменти знань, що представляють один і той самий концепт, 
мають різне семантичне оточення. 

Таким чином, приходимо до моделювання узагальнення - тобто обміну 
семантичним оточенням між синонімами. При виникненні відношень певного типу 
(наприклад, симетричного «є») між окремими фрагментами знань, необхідно лише 
взаємно провести нові зв'язки і відношення між відповідними квантами знань. Це 
досить проста операція, але на великих обсягах даних вона може бути затратною по 
ресурсах, тому не виносимо її в обов'язкові функції БЗ. Отже: 

В. 3.: згортка семантичного оточення синонімів може відбуватись автоматично; 

Очевидно, що при виконанні згортки можуть виникнути нові потенційні 
зв'язки між елементами семантичного оточення первинних синонімів, які теж можна 
розкрити. Це означає, що: 

В. А.: згортка семантичного оточення синонімів може мати рекурсивний характер. 

Єдине, що залишилось змоделювати - використання описаних вище принципів 
при внесенні нових знань у БЗ. Оскільки немає суттєвої різниці, звідки було 
отримано нові знання - з зовнішнього світу або з внутрішньої роботи БЗ - можемо 
стверджувати, що процес обробки буде проходити за тією ж самою схемою. 

Зазначимо окремо, що отримана модель досить точно описує процес не лише 
розуміння, але й набуття нових знань людиною, оскільки при оновленні фрагменту 
знань автоматично виникає потенціал для оновлення у всьому Його семантичному 
полі. Більш того, оскільки ресурси комп'ютера, як і людини, не є безмежними - 
цілком імовірне виникнення моделі цього процесу з визначення пріоритету, 
затримки виконання, періодичного оновлення знань тощо - тих самих процесів, які 
спостерігаємо у вищій нервовій системі діяльності людини. 
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Висновки 

Використання природно-мовної бази знань для моделювання когнітивного 
аспекту мовленнєвої діяльності людини можемо вважати успішним. 

Автоматичне виділення окремих квантів знань та відношень дозволяє 
заповнювати БЗ знаннями з довільних текстів, причому якість цього процесу 
обмежена лише якістю роботи лінгвістичного процесора. 

База знань у нормальному режимі роботи дозволяє змоделювати розуміння 
комп'ютером  природно-мовного тексту: узагальнення подібних концептів, 
визначення окремих слів і квантів знань та їх семантики, врахування контексту 
запиту (на прикладі джерела тексту) та маркерів текстів у БЗ. Оновлення 
семантичних зв'язків при доповненні бази знань відбувається за схемою, подібною 
до схеми осмислення нового тексту людиною. 

Отримані з тексту природно-мовні знання мають чітко визначну структуру, що 
дозволяє передавати їх для подальшої обробки у системи обробки знань або 
вдосконалювати саму ПМБЗ відповідним чином для роботи з ними. 

Використання описаного вище підходу дозволяє автоматизувати наповнення 
довільної бази знань з матеріалів природно-мовного тексту, що може бути 
використано фактично в усіх сучасних інформаційних природно-мовних технологіях. 
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КЕ5ОМЕ 

1.5. 5егоеісу 

Сотриєег тодеїйпя ої Ше соєпійуе а5ресі ої паїига! Іапспаєе ргосе5б5іпе 
Базеа оп а паига! Іапецаєе Кпоу/Тедое Базе 

Тріз деаїіз мії рипап-сопарикег іпіегасйоп аї Ше Ісуе! ої ехатіпайоп ої пефодз 
ої штпріетепіайоп ої пацта! Іапецаєе сопатипісайоп їп іесппіса! 5у5іетя, іп рагіїсиіаг ої 
пашта! Іапелаєе ипдегзіапдйтя. Тре паїп обіуесйуєе ої із агіїсіе 15 плодеШтє ої сегіаїп 
азресів ої питап зреесі асйуїу, патеїу Ше ргосе85 ої ппдег5іападїпе, ої єїмеп пакита! 
Іапецаєе Іехі, Бу ип5іпє а паїшига! Іапеиаєе Кпом/едее Ба5е. 

Тре бтг5і рагі ої Фе рарег апаЇу5е5 ФіНегепі арргоаспез (о гейгіеуіпе, апа 5іогіп5 ої 
пашга!-Іапецаєе іпіогтайоп, рієЄрПері5 Ше рго5 апа соп5 ої еуегу арргоасії апа 5Поуу8 
Феїг сопатоп ргобіетз. Тре рарег сопсіиде5 ШФаї епсусіоредіс Кпом/едее Базез аге пої 
зшіеа ог п5е їп аціотайс Кпоміедєєе ргосез5іпе, 5у5(ет5, Їгате-Ба5ед арргоаспез Пті( 
Ше іпіеєгіку ап сопзі5(епсу ої паига! Іапецаєе іпіогтпайоп ап 5егтапіїс пекуу огК5 
бепегайу Бауе іп5иїйсіепі зу5іетя ої геїайоп Беїмееп подез. ГасК ої сопатоп гоби5і 
зігисіите ої пашта! Іапепаєє (ехі 15 езгаб5Ппед аз а сопатоп Пому/ обШе ехаппіпеа 5узіете. 

Тре 5есопа рагі ехріаїп5 Фе агсріїесіите ої а пацига!-Іапоцаєе Кпом/едєе Ба5е апа 
їк8 сотропепіз, а5 ме аз Ше ргосе55 ої ПШпя Ше Кпому/едее Ба5е апа ргерагіпе, її Гог Фе 
ехрегітепі. ТПе Базіс 5еплапіїс-5упіасйїс 5(гисіиге, Ше согпег5(опе епіу ої Ше іпіебгакед 
арргоасії 0 плодеШпє, ої зреесії асіуту, 15 ргороз5ей а5 Пе Базі5 Гог Ше пагшга! Іапеиаєе 
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Кпоміедєе Ба5е. ТРре 5(гисіиге ої 5зисп Кпом/іедєе Ба5е 15 Фезсгібед а5 5еї ої 5иср 
зігисіите8 5, геїайоп5 Бебуеєп Фет К апа 5еттапіїс піагкег5 М. АссогаїпеіЇу, Ше пакитаї 
Іапецаєе їехі сопіаїп5 іпатутднаї! сопсеріз, гергезепіеа Бу плопо-ргедіса/е зігисіитез апа 
геіайоп5 ШФаї соппесі Шезе 5(гисі(игез їпіо роЇу-ргедісаїе 5ігисіитез. Еасп топо- ог роЇу- 
ргедісаїе 5(гисішге 15 5ром/п іо Бауе а сопезропдїпя, пзагкег Ша ПпК еуегу еЇетепі ої Ше 
заї 4 5ігисіиге (о а сегіаїп пагига! Іапєцаєе соп5зігисі 5исП а5 а ууога. ТПе плагКег 15 а50 
дезіспед іо 5їоге іпіогтайоп абоці Ше огібіпа| (ехі їп огдаег го аПому гез(огіпє Ше (ехі 
їтот Ше 9їуеп рагі ої (ре кпом/едєе Базе. 

Тре 1а5і рагі оиіпез5 Фе ргосе55 ої адаїпе пеху Кпом/едєе іо Ше Кпом/едее Ба5е 
апа дезстібез Пому, улій герага іо Ще Птіїацопзя ої Ше тоае! ої кпом/едєе Ба5е, геіайопя 
апа тагКег5 Гог (ехі їтаєтепіз аге Їогтеад апа паїпіатпед. ТПе соп5едиепі ргосе55 ої 
Гогтайоп ої 5еплапйс сопіехі ої а бїуеп 5ігисіиге 15 апаЇугей. П рагісиіаг, Фе апаїугед 
рбепотепа іпсішде Їогтайоп ОЇ 5еплапіїс сопіехі ої єїмеп 5ігисіиге Їгопі а 5іпеЇе 
їтаєтепі ої іехі, ехрапдїпе ої 5етапіїс сопіехі ої бїуеп 5ігисіите Їгопа 5еуега! сопуоїтей 
іехі їабтепі5 апа аціоптагеа Їогттайоп ОЇ 5еуега! іпдерепдепі сопіехі обіесів ЇйГот 
атНегепі іехі ітаєтепіз Ба5ед агоппа Фе зате 5ігисіште. 

Тре агіїсіе сопсійдеє Шаг гешіеуїпє Кпоміедєе йот пашта! Іапєцаєє Кехі Бу 
таКіпє ц5е ої Ше Кпоміедєє Базе (о аПому5 іо еппиіаіе пагига! Іапецаєе ппаегзіапате 
уліб. 5ийбсіепі диайіу ої Фе епііайоп, Ше паїп Пптігайоп Беїпе Ше сарабійцез ої Фе 
Ппеці5йс ргосе55ог тодціе. 

Надійшла до редакції 29.11.2016 
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